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摘要 : 


【 目的 ] 利 月 
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上 维基 百科 知识 库 生 成 自由 文本 的 层次 语义 路 径 。[ 方法 ] 针对 维基 百科 的 中 文 导出 数据 , 构 
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建 层 次 结构 的 树 状 图 ; 进而 通过 显 性 语义 分 析 将 自由 文本 表示 为 文章 概念 向 量 , 通过 文章 -类 别 关 联 关系 将 文本 


映射 到 树 状 图 中 构成 种 子 类 别 节 点 ， 


再 通过 种 子 节点 开始 的 信息 扩散 和 自 顶 向 下 的 路 径 选择 与 优化 , 生成 层次 


路 径 。[ 结果 ] 首 条 层次 路 径 的 平均 相关 度 在 测试 集 上 达到 54.10%， 前 20 条 路 径 整 体 上 按 相关 度 降序 排序 。[ 局 
限 ] 未 分 析 显 性 概念 向 量 在 保留 不 同 概念 数量 时 对 生成 路 径 质量 的 影响 。[ 结论 ] 基于 维基 百科 知识 库 所 生成 的 
层次 路 径 结果 能 够 反映 文本 的 主要 语义 信息 。 


关键 词 : 语义 路 径 ” 显 性 语义 分 析 ”层次 分 类 


维基 百科 


分 类 号 : G353 


1 3 引 


文本 的 语义 描述 是 文本 分 析 的 常见 任务 ,根据 描 
述 粒 度 的 不 同 可 以 分 为 三 个 层次 : 以 词 袋 法 为 主 的 细 
粒度 表示 , 将 文本 看 作 是 由 相互 独立 且 具 有 不 同 权 重 
的 词语 构成 的 集合 , 权重 计算 有 布尔 逻辑 、TF-IDF 等 
方法 ; 以 分 类 为 代表 的 粗 粒 度 表示 , 通过 构建 朴素 贝 
叶 斯 、SVM、 决 策 树 等 分 类 模型 ， 自 动 从 预定 义 的 类 
别 集合 中 选择 最 相关 的 分 类 ; 介 于 前 二 者 之 间 的 描述 
方式 , 以 图 结构 和 主题 模型 最 为 常见 ， 前 者 把 文本 表 
示 为 由 概念 节点 及 关联 边 构 成 的 语义 图 号 后 者 以 
LDA 为 典型 代表 中, 把 文本 看 作 是 由 若干 个 主题 按照 
某 种 分 布 生成 的 结果 ,主题 本 身 又 是 由 词语 根据 特定 
分 布 生成 。 

在 三 种 不 同 粒度 的 处 理 方式 中 , 分 类 对 于 文本 的 
语义 描述 最 为 概括 ， 人 工 可 读 性 最 强 。 然 而 ,传统 分 类 


了 中 


技术 所 处 理 的 类 别 集合 数量 固定 , 各 分 类 之 间 在 语义 
上 处 于 相同 等 级 , 不 存在 上 下 位 层次 关系 ,无 法 深度 
刻画 文本 的 语义 信息 ,如 能 引入 多 级 分 类 , 通过 带 层 
次 结构 的 语义 路 径 对 文本 进行 描述 , 将 有 利于 更 好 地 
快速 获取 文本 的 主要 语义 。 

因此 , 本 文 围绕 如 何 识别 自由 文本 的 层次 语义 路 
径 进行 研究 , 基于 维基 百科 中 文 导 出 数据 , 构建 了 带 
有 大 规模 层级 结构 的 树 状 图 , 借助 显 性 语义 分 析 将 任 
意 文 本 的 语义 信息 映射 到 树 状 图 中 ,进而 通过 节点 信 
息 扩散 和 路 径 求 解 与 优化 ,生成 文本 对 应 的 层次 分 类 
路 径 。 


2 相关 工作 


文本 的 层次 语义 描述 可 以 借助 层次 分 类 实现 , 即 
按照 一 个 规模 巨大 的 类 别 层次 ,指定 未 知 对 象 在 层次 
中 所 隶属 的 类 别 四 。 层 次 分 类 需要 良好 的 层次 结构 和 
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一 定 规模 的 训练 数据 , 通过 将 层次 分 类 问题 转换 为 传 
统 分 类 , 再 利用 常规 分 类 算法 实现 I。 然 而 人工 维 
护 一 棵 组 织 严谨 的 大 规模 层次 树 难度 较 大 , 分 类 节点 
数量 众多 使 得 分 类 算法 的 效率 较 低 ， 从 而 限制 了 层次 
分 类 的 应 用 范围 。 

相 比 层次 分 类 而 言 , 利用 维基 百科 现 有 的 文章 和 
分 类 网 络 识别 文本 的 层次 语义 更 具 优势 : 一 方面 ， 维 
基 百 科 已 经 形成 了 开放 的 、 动 态 增长 的 分 类 体系 ; 另 
一 方面 , 维基 百科 的 分 类 与 文章 之 间 的 链接 引用 关 
系 提供 了 更 多 的 显 性 语义 信息 , 在 此 之 上 已 有 部 分 
较为 有 效 的 文本 语义 分 析 技 术 中 。 

其 中 ， Muchnik 等 中 利用 维基 百科 的 文章 链接 网 
络 , 自动 构建 术语 在 网 络 中 的 潜在 层次 结构 , 但 该 研 
究 未 使 用 维基 百科 的 分 类 信息 。Gabrilovich 等 四 提出 
的 显 性 语义 分 析 (Explicit Semantic Analysis，ESA) 是 
基于 维基 百科 的 文本 语义 表示 的 经 典 方法 , 该 方法 
使 用 维基 百科 的 文章 及 其 之 间 的 链接 信息 ， 把 文本 
表示 为 由 概念 (文章 标题 ) 构 成 的 向 量 , 在 词语 相关 度 
计算 外 、 查 询 扩 展 中 、 文 本 分 类 站 等 应 用 中 得 到 了 广 
泛 应 用 ,ESA 表达 的 是 文本 与 维基 概念 之 间 在 统计 意 
义 上 的 相关 性 ,概念 向 量 中 的 各 元 素 之 间 与 词 袋 法 
一 样 维持 了 独立 性 假设 , 因此 ,ESA 对 文本 实际 语义 
的 直观 解释 能 力 依然 较 弱 ， 以 本 文 所 用 数据 集 构建 
的 ESA 模型 和 待 分 析 文本 “新 浪 微 博 ” 为 例 ESA 
输出 的 前 5 篇 最 相关 文章 分 别 为 “腾讯 微 博 ”"、“ 长 微 
博 ”、“ 微 博 AIR”“ 自 由 微 博 ” 和 “对 新 浪 微 博 的 争 
议 ” 而 通过 本 文 的 路 径 识 别 技 术 所 输出 的 前 两 个 层 
次 路 径 为 “社会 /大 众 媒体 /全 球 资讯 网 /Web2.0” 和 
“社会 /文化 /网 络 文化 /虚拟 社 群 ” 显然 , 层次 路 径 更 
能 准确 描述 文本 的 语义 信息 。 

总 体 而 言 , 借助 于 词 条 概念 描述 文本 的 语义 已 有 
较 好 的 研究 进展 , 但 如 何 生成 任意 文本 的 层次 语义 路 
径 尚 无 公开 有 效 的 方法 。 

本 文 直接 面向 开放 的 维基 百科 分 类 体系 , 在 由 文 
章 与 分 类 、 分 类 之 间 共 同 构成 的 巨大 网 络 中 , 抽取 可 
表达 文本 主要 语义 的 层次 路 径 。 与 层次 分 类 法 不 同 ， 
本 文 方法 所 处 理 的 分 类 数量 巨大 , 分 类 网 络 复杂 ; 路 
径 识 别 不 需要 构建 复杂 的 分 类 器 ,而 是 在 简化 网 络 中 
借助 于 信息 扩散 动态 完成 , 最 终生 成 可 读 性 强 的 层次 
语义 路 径 。 
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维基 百科 提供 了 开放 的 层次 分 类 体系 , 用 于 对 以 
文章 为 单位 概念 的 世界 知识 进行 多 维度 标注 ， 中 文 分 
类 形式 上 以 杜威 十 进位 图 书 分 类 法 为 主 同时 参考 
《中 国 图 书馆 分 类 法 》 以 及 赖 永 祥 《 中 国 图 书 分 类 法 六 
维基 百科 数据 由 人 工 编 纂 而 成 , 凝聚 了 群体 智慧 ， 内 
容 相 对 丰富 完整 ,并 且 可 自由 获取 使 用 ,因此 , 笔者 
采用 维基 百科 数据 构建 大 规模 层次 分 类 体系 。 

维基 百科 分 类 体系 可 以 表示 为 由 节点 集 
V=fvwv vi 和 弧 集 E= {el,e,,…,em} 组 成 的 有 
向 图 Gw =< V,E >, 其 中 , 节点 vi 二 i 二 n) 表示 类 
别 ; 弧 ei =<vjyvk > (1i<m,l1<j,kn ) 表 示 类 别 
节点 Vv; 是 w 的 父 类 别 , 维基 百科 分 类 图 Gy 的 一 个 
子 图 如 图 1 所 示 : 


(ey 

() 形式 科学 () 本 GC 物理 科学 

图 1 维基 百科 分 类 图 子 图 
维基 百科 的 中 文 分 类 体系 以 “页 面 分 类 ”为 总 人 

口 , 该 分 类 下 拥有 22 个 直接 子 分 类 ,也 是 维基 百科 

有 实际 意义 的 第 一 级 分 类 ， 如 表 1 所 示 : 

表 1 维基 百科 的 第 一 级 分 类 列表 


序号 名 称 序号 名 称 
1 哲学 12 心理 学 
2 人 物 13 科技 

3 历史 14 资讯 

4 宗教 15 跨 学 科 领 域 
5 文学 16 休闲 

6 艺术 17 人 文学 科 
7 自然 科学 18 应 用 科学 
8 社会 科学 19 社会 

9 地 理 20 技术 

10 科学 21 总 类 

11 语言 22 词汇 列表 


为 便于 描述 , 对 Gw 做 如 下 设 定 : 

(1) 令 “ 页 面 分 类 ”为 Gw 的 根 节点 , 记 为 
root(Gw ) 。 

(2) 对 于 一 条 弧 e=< vi,vj>, 称 vi 是 vj 的 父 节 
点 ，Vj 是 Vi 的 子 节 点 , 令 parents(v) 表示 v 的 所 有 父 
节点 集合 ，children(v) 表示 v 的 所 有 子 节 点 集合 。 例 
如 ， 1 中 有 : 

children(“ 自 然 科学 ”)={“ 物 理科 学 ”,“ 数 学 ”…} 

parents(“ 物 理科 学 ”)={“ 科 学 学 科 ”, “自然 科学 ”.…} 

(3) 对 每 个 节点 v 赋予 一 个 相对 于 根 节点 位 置 的 
深度 属性 depth， 当 v 是 根 节点 时 , 深度 为 0， 其 他 情况 
递归 定义 如 下 : 

depth(v) = Iminv eparents(v) (depth(vi)+1) (1) 
例如 , 在 图 1 中 ,， 有 : 

depth(“ 科 学 ”)=depth(“ 自 然 科学 ”)=1 

depth(“ 科 学 学 科 ”)=depth(“ 物 理科 学 ”)=2 

(4) 将 从 第 一 级 节点 开始 到 类 别 节点 v 为 止 的 任 
一 条 简单 路 径 称 为 v 的 一 条 层次 分 类 路 径 ， 简 称 路 径 ， 
记 为 p,, 并 令 jpv| 表 示 路 径 的 长 度 ， 即 pv 所 包含 的 分 类 
节点 数量 , 如 图 1 中 ,“ 自 然 科 学 一 物理 科学 ?是 节点 
“物理 科学 ”的 一 条 分 类 路 径 ,其 长 度 为 2。 

完整 的 维基 百科 分 类 图 Gw 存在 许多 不 利于 算法 
自动 分 析 的 方面 : 首先 , 维基 百科 拥有 大 量 以 不 同 侧 
面 对 概念 进行 分 类 的 情况 ， 如 “总 类 一 分 类 一 直接 命 
名 的 分 类 一 以 人 物 命 名 的 分 类 一 以 各 职业 人 物 命 名 的 
分 类 一 以 商人 命名 的 分 类 一 比尔 : 盖 蒋 ”去 除 这 些 以 
导航 为 主要 目的 的 分 类 , 可 以 提高 路 径 自 动 识 别 的 效 
果 。 其 次 ,经 拓扑 排序 发 现 图 Gw 中 存在 大 量 环 路 ,不 
利于 分 类 体系 的 递归 处 理 ， 如 “社会 科学 一 刑事 学 一 
罪案 一 侵犯 人 权 一 宗教 迫害 一 宗教 多 元 主义 一 宗教 迫 
害 ”。 再 次 , 部 分 节点 存在 路 径 包含 现象 ,该 现象 是 指 
节点 有 两 条 以 上 长 度 不 等 的 路 径 , 并 且 长 路 径 包 含 了 
短路 径 的 所 有 类 别 ， 如 图 1 中 ， 路 径 “ 科 学 一 自然 科学 
一 物理 科学 ”和 “自然 科学 一 物理 科学 ” 均 为 “物理 科 
学 ”的 路 径 , 通常 情况 下 , 仅 保 留 短路 径 不 破坏 分 类 体 
系 的 主要 语义 信息 , 并 能 简化 图 的 复杂 程度 。 另 外 , Gw 
中 存在 分 类 引用 缺失 、 无 有 效 路 径 以 及 类 别 重复 等 少 
量 异常 现象 , 例如, 实验 数据 中 的 分 类 “佛教 法 器 ”其 
父 类 指向 了 并 不 存在 的 “法 器 ”分 类 ; 类 别 “ 各 类 型 智 
慧 ? 设 有 父 分 类 ,， 即 不 存在 有 效 路 径 ;“ 俄 罗斯 探险 家 ?” 


和 “俄罗斯 探险 家 ”表达 了 相同 的 意义 ,但 却 对 应 两 个 
完全 独立 的 分 类 页 面 。 
为 解决 以 上 问题 ， 笔 者 提出 了 层次 分 类 图 构建 算 

法 , 通过 对 Gw 进行 剪 校 ,， 移 除 部 分 节点 和 边 ， 消 除 环 
路 和 路 径 包 含 现象 ,， 得 到 简化 后 的 层次 分 类 图 Gn, 算 
法 如 下 所 示 : 

输入 : 原始 维基 百科 分 类 关系 图 Gw 

输出 : 用 于 层次 路 径 识 别 的 树 状 图 GH 

1: R= root(Gw) 

2 Vu= {R}, En= 0; 

3: Init queue Q and Enqueue R into Q; 


4: while Q not empty do 


9: v= dequeue from Q; 

6 证 vE{ 跨 领域 学 科 ”“ 总 类 ” “词汇 列表 分 then continue; 
EE for each child in children(v) do 

8 if depth(child) = depth(v) + 1 then 

9 Va=Va U child; 

10: Eun= En U edge(v 一 child); 

11: Enqueue child into Q; 

12: end if 

13: end for 


14: end while 


15: return GH=< Vn, EH > 

算法 借助 于 队列 结构 自 根 节点 对 Gw 进行 广度 优 
先 遍 历 ， 对 于 当前 被 访问 的 节点 v( 行 5), 通过 忽略 “ 跨 
学 科 领 域 " “总 类 ”和 “词汇 列表 ”三 个 一 级 类 别 节 点 以 
消除 侧面 分 类 ( 行 6); 然后 处 理 v 的 每 一 个 子 节点 
child， 当 其 深度 为 v 的 深度 值 加 1 时 , 把 子 节点 child 
和 边 v 一 child 分 别 加 到 节点 集 Vn 和 边 集 En 中 ( 行 9， 
行 10), 否则 , 说 明 Gw 中 有 除 v 之 外 的 节点 指向 child， 
且 距 离 根 节点 更 近 , 此 时 忽略 边 v 一 child。 最终, Vn 和 
Er 分 别 保存 了 精简 后 的 层次 分 类 图 的 节点 集 和 边 集 ， 
共同 构成 了 的 树 状 图 Ga。 

算法 保证 了 Gn 拥有 一 个 无 人 边 的 根 节点 , 旦 图 
中 每 一 个 节点 v 的 入 边 只 来 自 上 层 市 点 , 它们 的 深度 
为 v 的 深度 减 1， 出 边 只 指向 下 层 节 点 , 深度 为 v 的 深 
度 加 1。Ga 具有 树 结构 的 多 数 特性 : 拥有 根 节点 、 子 
节点 、 叶 子 节 点 和 分 层 结构 , 但 GH 中 节点 的 父 节点 不 
唯一 ， 所 以 称 之 为 树 状 图 (Tree like Graph)。 


4 ”层次 分 类 路 径 识别 方法 


基于 维基 百科 的 语义 层次 分 类 路 径 识 别 分 为 三 个 
部 分 : 将 自由 文本 表示 为 由 维基 文章 构成 的 显 性 概念 ; 
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将 显 性 概念 映射 到 树 状 图 并 求解 层次 分 类 路 径 集合 ; 
综合 考虑 相关 度 和 新 颖 度 , 优化 层次 分 类 路 径 的 选择 。 
4.1 文本 的 显 性 概念 表示 

ESA 借助 通用 知识 库 , 将 自由 文本 表示 为 一 组 由 
概念 构成 的 向 量 , 通常 采用 维基 百科 训练 得 到 。 给 定 
一 组 概念 (对 应 于 维基 百科 的 文章 标题 ) 集 合 
{a1,a2,…,an} 和 与 之 关联 的 文档 ( 即 维基 百科 文章 的 
内 容 {di,d,,…,d,}，ESA 模型 构造 一 个 稀 艳 矩阵 工 
其 中 每 一 列表 示 一 个 概念 , 每 一 行 对 应 于 一 个 出 现在 
Unadi 中 的 词语 , T 中 的 每 个 元 素 TDj] 对 应 于 出 现 
在 文档 dg 中 的 词 项 t 的 TF-IDF 值 吧 : 


n 
T[i,j]=tf(t;,d.) :log— 2 
[i,j]=tf(ti,d;j) 58 让 (2) 


如 文献 [8] 所 述 , 并 非 所 有 的 文档 对 于 ESA 都 有 相 
同 的 效果 , 笔者 从 内 容 和 链接 关系 两 个 方面 对 维基 百 
科 的 原始 文章 进行 过 滤 。 在 内 容 方面 , 如 文章 a 是 跳 
转 页 面 、 消 靶 页 面 、 列 表 页 面 ， 或 者 文章 a 所 包含 的 
词语 数量 少 于 200, 则 作为 非 重要 文章 予以 过 滤 ; 在 
链接 关系 方面 , 如 果 文 章 a 的 出 人 链 之 和 小 于 20, 则 
予以 过 滤 。 

为 建立 ESA 模型 ， 笔 者 对 过 滤 后 的 维基 百科 数据 
进行 扫描 ,计算 每 对 “词语 一 文章 ”的 TF-IDF 值 , 形成 
最 终 的 ESA 矩阵 工 并 进一步 维护 了 文章 到 类 别 的 隶 
属 关系 , 用 于 后 续 的 种 子 类 别 选 取 ， 从 而 构成 了 自由 


文本 到 层次 路 径 之 间 的 桥梁 关系 。 
在 构建 矩阵 工 之 后 , 给 定 文本 t, 其 显 性 语义 概念 
向 量 可 由 以 下 公式 计算 得 到 : 
v- 了 


wieterms(t) 

其 中 ，tf(wi,b 表示 词语 wi 在 文本 t 中 的 词 频 ， 
idf(w;) 表示 w; 在 所 有 维基 百科 数据 集 上 的 倒 排 文档 
频率 ，T[wi] 表示 和 矩阵 T 中 wi 所 对 应 的 行 向 量 , 即 其 
显 性 语义 向 量 。 

为 获取 文本 的 主要 语义 概念 ,笔者 对 向 量 Vt 按 
照 其 元 素 得 分 进行 降序 排序 , 并 挑选 前 n 个 元 素 作为 
文本 最 终 的 显 性 语义 分 析 结 果 , 形式 化 表示 为 
ESA, = fp(al|b,p(az10,……p(aa|1D} , plai |t) 表示 文 
章 a 与 文本 t 的 语义 相关 程度 。 

4.2 ”分 类 节点 的 语义 关联 与 扩散 及 分 类 路 径 求解 

令 CS(ai) 表示 文章 ai 所 隶属 的 关联 分 类 ,对 于 文 


tf (wi,t) .idf (wi). TLwi] G3) 
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本 t 和 Ga 中 的 分 类 c， 如 存在 a;eESA,，, 使 得 
ce CS(a;) ， 则 称 分 类 c 为 文本 t 在 树 状 图 Gn 上 的 初 
始 种 子 类 别 节 点 ， 简 称 种 子 节 点 。 令 w(cj1b 表示 种 子 
节点 oj 与 文本 t 相关 程度 的 权重 大 小 , 计算 公式 如 下 : 


,|t 
on- 区 区 


(4) 


其 中 ，ai ec; 表示 文章 a 隶属 于 类 别 cj; 
1CS(ai)| 表 示 ai 所 关联 的 分 类 集合 的 大 小 。 公 式 (4) 表 
明 , 种子 节 点 的 分 类 权重 由 所 关联 文章 的 ESA 分 值 按 
比例 累加 得 到 。 进 一 步 , 为 保证 所 有 种 子 节 点 的 权重 
之 和 为 1, 笔者 对 种 子 节点 的 权重 进行 归 一 化 处 理 ， 
记 为 w'(c; |t), 公式 如 下 : 


w(cilt) 


5 
2 wcild) 加 


其 中 , A 表示 所 有 种 子 节点 集合 。 为 保持 定义 的 完 
整 性 , 如 果 c; gg A, 令 w'cilD=0。 

做 如 下 假设 : 任 一 文本 t 均 可 以 由 维基 百科 的 分 
类 加 以 描述 ,描述 时 由 根 节点 开始 , 经 中 间 层 级 的 分 
类 自 顶 向 下 逐 级 细 化 描述 ， 直 至 到 达 维 基 编 每 人 员 认 
可 的 细 粒 度 分 类 为 止 ; 令 plc; |t) 表示 分 类 ci 与 文本 t 
的 语义 相关 程度 ,对 每 一 个 分 类 进行 相关 度 赋值 后 ， 
就 可 以 按照 一 定 的 策略 从 图 中 挑选 出 自 根 节点 达到 终 
止 节点 的 最 相关 路 径 , 作 为 文本 t 的 语义 层次 路 径 。 

在 表现 形式 上 ， 人 们 仅 观 察 到 与 文章 直接 关联 的 
种 子 分 类 节点 , 而 自 根 节 点 到 达 种 子 节点 所 经 过 的 中 
间 节 点 隐藏 在 层次 树 Ga 中 ,为 求解 中 间 节 点 及 其 相关 
度 值 ， 笔 者 提出 反 向 扩散 方法 ， 自 种 子 节点 开始 , 将 每 
个 节点 的 相关 度 值 向 父 节 点 扩散 , 直至 根 节 点 为 止 , 此 
时 有 poot(Gh)1b =1， 即 所 有 种 子 节 点 的 信息 最 终 汇 
集 到 根 节 点 , 任 一 文本 均 隶 属于 维基 百科 的 根 分 类 。 

令 I(cj 坟 ci|t) 表示 节点 cj 扩散 到 节点 ci 的 信息 
量 , 定义 如 下 : 


w'(cilt)= 


Ici > oilt)= p(¢j|t) :count(ci) 


(6) 


count(cr) 
cueparents(c) 
其 中 ，count(ci) 表示 隶 属于 节点 ci 或 ci 子孙 节点 
的 文章 数量 。 此 时 ，p(ci |t) 求解 如 下 : 
pcilt)=w'cil))+ 2 


cischildren(ci) 


ICcj 一 ci|b (7) 


即 节点 ci 与 文本 t 的 语义 相关 度 由 直接 关联 的 文 
章 所 传递 的 ESA 权重 和 所 有 子 节 点 所 传递 的 信息 量 
共同 决定 。 从 种 子 节点 开始 , 自 底 向 上 依次 计算 ， 即 可 
求解 所 有 中 间 节 点 及 根 节 点 与 文本 t 的 语义 相关 度 值 。 
然后 ， 从 根 节 点 开始 , 通过 所 有 相关 度 大 于 0 的 中 间 
节点 ， 到 种 子 节点 为 止 , 即 可 获取 到 所 有 可 能 的 分 类 
路 径 。 对 于 任 一 分 类 路 径 path, =< cljc?，…ck > ， 定 义 
其 与 文本 t 的 语义 相关 度 PR(path.) 如 下 : 

> peild) 


PR(pathy |0) = Sepm ——— (8) 
|cispathle | 


根据 公式 (8) 对 每 条 层次 分 类 路 径 按 其 关联 度 由 
高 到 低 排 序 ， 并 挑选 得 分 最 高 的 前 N 个 作为 候选 结 
即 可 实现 对 文本 t 的 语义 路 径 识别 。 
4.3 ”层次 分 类 路 径 的 优化 选择 

为 保证 生成 路 径 的 新 颖 性 与 多 样 性 ,笔者 参考 文 
献 [11] 提 出 的 方法 对 候选 路 径 进行 前 校 , 移 除 高 度 相 
似 的 重复 路 径 。 首先, 基于 文本 t 的 候选 路 径 集 , 构建 
无 向 带 权 图 Gj =< Vi, Wi,El >， 其 中 ，G1 的 每 个 节点 
Vi & Vi 对 应 于 一 条 分 类 路 径 path; ， 其 权重 wi s Wi 为 
PR(path; |t) 。 对 于 任意 两 个 节点 w 、v; 及 其 对 应 的 
层次 分 类 路 径 pathi 、path;， 如 pathi 与 path; 的 相似 度 
sim(pathi,path;) 大 于 指定 阐 值 ， 则 图 G1 存在 无 向 边 
e=(Vi,vj)e Er。 

根据 如 下 贪心 策略 挑选 独立 路 径 : 

(1) 从 图 Gi 中 选取 权重 最 大 的 节点 v 作为 有 效 路 
径 并 予以 标记 , 删除 与 v 相 邻 的 节点 及 边 , 并 把 v 添 加 
到 队列 Q 的 尾部 ; 

(2) 重复 以 上 过 程 直 至 图 G1 中 的 所 有 节点 被 挑选 
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L= min(| pi |,|pj|，c(pi,k) 表示 路 径 pi 中 的 第 k 
为 简化 复杂 度 , 令 ca = cs 时 ，sime(clcz)=1， 否则 
为 0。 


S 实 验 


为 验证 本 文 方法 的 效果 , 笔者 构建 了 维基 百科 训 
练 数据 集 和 测试 数据 集 ， 以 算法 生成 的 层次 分 类 路 径 
有 序列 表 作为 测试 对 象 ， 对比 生成 路 径 和 文章 自 带 的 
原始 类 别 的 相关 度 ， 以 反映 自动 生成 路 径 的 实际 效果 。 
5.1 实验 数据 

选取 维基 百科 2015 年 6 月 发 布 的 中 文 导出 数据 
“zhwiki-20150602-pagesarticles-multistream.xml.bz”", 
该 数据 集 共 包含 2 648 029 个 页 面 , 其 中 , 文章 页 面 
占 55.93%, 分 类 页 面 占 7.47%, 文档 附件 、 图 片 等 其 
他 类 型 资源 页 面 占 36.60%，, 具体 组 成 如 表 2 所 示 。 通 
过 数据 清洗 处 理 , 最 终 保 留 了 184 968 个 文章 页 面 和 
176 484 个 分 类 页 面 , 分 别 用 于 构建 ESA 模型 和 层次 

表 2 维基 百科 实验 数据 集 页 面 组 成 情况 
页 面 类 型 ”数量 ” 百分比。 子 类 型 数量 ”百分比 
跳 转 文章 数量 658 084 44.44% 


出 


内 容 过 滤 数 量 610 183 41.20% 

文章 页 面 1 480 963 55.93% 人 病因 
链接 过 滤 数 量 27728 1.87% 
有 效 文 章 数量 184 968 12.49% 
特殊 分 类 数量 21 304 10.77% 
Pe 

分 类 页 面 ”197 872 7.47% 1 84 0.04% 

地 


有 效 分 类 数量 176 484 89.19% 


或 删除 完毕 。 

此 时 ,队列 Q 中 保存 了 所 有 互 不 依赖 的 层次 路 径 ， 
并 按照 语义 相关 度 由 高 到 低 排列 。 

在 上 述 步 又 中 ,如 何 计算 任意 两 路 径 之 间 的 相似 
度 至 关 重 要 , 笔者 采用 如 下 方式 : 


L 
2 L-k+D):sim(c(pi,k),c(pj,k)) 


)=! 
EL 
> K+( 
k=1 


(9) 


Simp (pi,P}j 


1pil-lpih 


GD http://dumps.wikimedia.org/zhwiki/20150602/. 


其 他 页 969 194 36.60% 至 _ = 


清洗 后 的 维基 百科 分 类 图 Gw 共 拥有 176 484 个 节 
点 和 335 329 条 边 , 通过 树 状 图 构建 算法 进行 过 滤 处 
理 ， 去除 环 路 和 孤立 点 后 ,形成 最 终 的 层次 分 类 图 Gu 
包含 171 681 个 节点 和 220 861 条 边 , 分 别 为 Gw 的 
97.28% 和 65.86%， 即 Gu 基本 保留 了 原 图 的 分 类 名 称 ， 
但 去 除了 大 量 宛 余 路 径 。 

为 构建 测试 集 , 笔者 从 维基 百科 原始 数据 中 去 除 
184 968 条 训练 数据 ， 从 剩余 的 637 911 个 非 跳 转 文章 
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页 面 中 以 1.5% 的 概率 随机 抽样 ， 去除 字 数 少 于 50 的 
文章 , 最终 构成 了 包含 6 629 个 文章 的 测试 集 " 测试 
集 以 XML 格式 保存 , 每 个 文章 包含 页 面 1d、 标题 、 去 
除 标 签 后 的 文本 和 所 隶属 的 分 类 。 
5.2 ”实验 数据 

给 定 测试 数据 集中 的 一 个 文章 ai ，ai 在 维基 百科 
原始 数据 中 所 隶属 的 分 类 集合 为 cs(ai) ， 通 过 本 文 方 
法 计算 得 到 的 层次 分 类 路 径 集 合 为 PS(a;)= 
{pathi,path,,…,path,} ， 定 义 ai 与 任 一 条 分 类 路 径 
path j 的 相关 度 R 如 下 : 


R(ai,pathj) = Maxcecs(a,) rel(path;,¢) (10) 
其 中 ，rel(pathj,c) 表示 类 别 c 与 给 定 路 径 path ;的 
相关 度 ,计算 公式 如 下 : 


mnp(path.,c 
rel(path;,c) = ppathj,©) 


; (11) 
mnp(path;,c)+ dis(path;,c) 


其 中 ，dis(pathj,c) 表示 类 别 节点 c 在 维基 百科 分 
类 图 中 到 达 路 径 path 任 一 节点 的 最 短 距离 ， 
mnp(pathi,c) 表示 节点 c 与 pathj 的 距离 取 最 小 值 时 ， 
在 path; 中 相对 应 的 匹配 节点 位 置 (Matched Node 
Position)。 

进一步 , 令 R(ai,k) 表示 文章 ai 与 计算 得 到 的 前 
条 层次 分 类 路 径 的 平均 相关 度 ,， 简 记 为 R@k, 计算 公 
式 如 下 : 


k 
R(ai,k) = rel(ai, path 7) (12) 
j=1 


S.3 ”实验 结果 与 分 析 

取 测 试 文章 的 标题 和 正文 文本 的 前 300 个 汉字 作 
为 自由 文本 , 计算 其 显 性 概念 向 量 , 保留 前 20 个 主要 
概念 用 于 生成 种 子 分 类 节点 ,生成 层次 语义 路 径 集 
合 。 为 便于 获得 路 径 识别 的 感性 认识 , 下 面 给 出 了 测 
试 集中 的 “中 国 古 典 典 籍 ? 和 “邻接 矩阵 ?两 篇 文章 人 工 
给 出 的 分 类 信息 和 自动 识别 出 的 前 5 条 路 径 , 以 及 每 
条 路 径 与 文章 的 相关 度 R 和 -平均 相关 度 (k E[1,5])， 
如 表 3 所 示 。 

由 表 3 可 看 出 , 本 文 所 提 方 法 能 够 从 层次 分 类 知 
识 体系 中 对 文本 内 容 进行 合适 的 语义 定位 ， 所 输出 的 


GD https://github.com/iamxiatian/data/blob/master/zh.wiki6629.zip. 
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表 3 层次 路 径 识别 结果 示例 
测试 文章 ”原始 类 别 
0 (1) 文学 /文学 体裁 /语录 0.250 0.250 


”一 


中 国 思想 (2) 历史 /历史 学 /文献 学 0.400 0.325 
(3) 社会 /教育 /学 术 / 
古典 
、 反 智 主义 
(4) 历史 /各 种 主题 的 历 
史 / 思 想 史 /中 国 思想 史 
(5) 社会 /文化 /各 国文 化 / 
一 中 国文 化 /经 学 0.800 0.583 
(1) 自然 科学 /数学 /离散 
数学 /图 论 
(2) 应 用 科学 /计算 机 科 
学 /数据 结构 
3) 应 用 科学 /资讯 科学 / 


ee a 
邻接 算 阵 ”数据 结构 生物 信息 学 


前 5 条 识别 路 径 R RE@k 


0.667 0.439 


0.800 0.529 


1.000 1.000 


1.000 1.000 


0.333 0.778 


资讯 /信息 论 / 编 码 
0 G00 oa 
Ey 


(5) 应 用 科学 /应 用 数学 / 
一 数值 分 析 / 数 值 线性 代数 0333 0653 


层次 路 径 能 够 从 不 同 侧面 反映 文本 的 主要 语义 信息 ， 
与 人 工 标注 的 细 粒 度 分 类 具有 较 高 的 关联 关系 ,， 能够 
为 文章 编纂 人 员 对 文本 进行 合理 分 类 提供 有 效 的 参考 
借鉴 。 

为 反映 整体 情况 ,根据 公式 (12) 计 算 前 k 条 路 径 
与 测试 文章 自 带 分 类 的 jc 平均 相关 度 ,k 取 不 同 数值 时 
的 实验 结果 如 图 2 所 示 : 


0.55 
k R 

七 1 0.541 
0 2 0.524 
3 0.507 

本 4 0.497 
5 0.488 


图 2 kk- 平均 相关 度 实验 结果 (kE[1,20]) 


图 2 的 右 侧 给 出 了 取 值 从 1 到 5 时 , 在 整个 测 
试 数据 集 上 的 R@k, 左 侧 曲线 则 给 出 了 k 取 值 在 1 到 
20 之 间 的 整体 变化 情况 。 相关 度 均值 随 着 的 增 大 而 
显著 降低 , 说 明 识 别 结果 整体 上 能 够 按照 与 原始 文本 
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的 语义 相关 度 由 高 到 低 排序 ; 当 k = 1 时 , 平均 相关 度 
值 达 到 0.541， 则 表明 超过 一 半 的 情况 下 首 条 路 径 与 人 
工 标注 的 类 别 保持 一 致 。 部 分 测试 文章 的 相关 度 较 低 
的 原因 , 一 方面 是 由 于 方法 本 身 和 数据 质量 的 局 限 ， 
采用 显 性 语义 分 析 表 示 自 由 文本 会 引入 噪声 ， 另 一 方 
面 则 是 人 工 标记 的 分 类 不 够 全 面 ( 见 表 3)， 使 得 有 较 高 
语义 相关 度 的 路 径 在 测试 中 的 实际 得 分 较 低 。 


6 结 语 


本 文 提出 了 一 种 基于 维基 百科 的 语义 层次 路 径 识 
别 方法 , 该 方法 首先 利用 显 性 语义 分 析 技 术 将 自由 文 
本 表示 为 维基 百科 词 条 概念 向 量 , 进而 通过 词 条 与 类 
别 之 间 的 隶属 关系 , 将 其 关联 到 层次 分 类 树 状 图 之 中 ， 
通过 自 种 子 分 类 节点 向 根 节点 的 语义 扩散 和 自 顶 向 下 
的 分 类 路 径 求 解 与 优化 , 实现 了 对 任意 文本 的 语义 层 
次 路 径 标记 。 实 验 结果 表明 本 方法 自动 生成 的 路 径 与 
人 工 标记 的 类 别 具 有 较 高 的 关联 度 。 

下 一 步 研究 包括 : 

(1) 探索 新 的 分 类 节点 在 图 中 的 信息 扩散 计算 方 
式 ， 进 一 步 提高 层次 路 径 识 别 效果 ; 

(2) 层次 路 径 识 别 技术 在 相似 度 计 算 和 分 类 等 文 
本 挖掘 任务 当中 的 应 用 。 
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Generating Hierarchical Paths of Chinese Text from Wikipedia 


Xia Tian 
(Key Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education, 
Renmin University of China, Beijing 100872, China) 
(School of Information Resource Management, Renmin University of China, Beijing 100872, China) 


Abstract: [Objective] Generate hierarchical semantic paths of texts from Wikipedia. [Methods] We first establish 
article concept vector of Chinese texts from Wikipedia through explicit semantic analysis. And then, we mapped the 
vector to the category nodes of hierarchical-tree-like graph. Finally, we generated the hierarchical paths with the help of 
seed node information diffusion and top-down path selection, as well as optimization technology. [Results] The average 
relevance degree of the first generated hierarchical path was 54.10% on the test dataset, and the top 20 paths were 
sorted by relevance in the descending order. [Limitations] We did not analyze the effect of using different numbers of 
explicit concept vector to the quality of the generated path. [Conclusions] The hierarchical paths generated from 
Wikipedia can reflect the main semantic meaning of the given texts. 
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Summon 发 现 服务 开始 提供 Altmetric 信息 


ProQuest 子 公 司 Ex Libris 于 近日 宣布 已 集成 Altmetrics 到 Summon 发 现 服务 之 中 , 极 大 地 丰富 了 用 户 体验 , 改进 了 内 容 
发 现 。 这 是 ProQuest 和 Altmetric 之 间 共 同 合作 的 成 果 , 使 得 研究 人 员 只 需 点 击 鼠 标 ， 就 能 获悉 一 项 研究 成 果 的 在 线 分 享 、 
评论 和 讨论 情况 。 

图 书馆 开启 Summon 发 现 服务 的 Altmetric 集成 功能 ， Summon 发 现 服务 中 会 显示 一 个 Altmetric 徽章 。 用 户 可 以 单 击 这 
个 徽章 来 探索 一 条 搜索 结果 (如 文章 ) 的 相关 讨论 信息 。 这 些 信息 由 Altmetric 公司 从 多 个 来 源 获取 而 来 , 包括 : 主流 媒体 、 维 
基 百 科 、 博 客 、 社 交 网 络 、 参 考 咨询 管理 人 员 、 出 版 后 的 同行 评议 论坛 ， 以 及 其 他 在 线 社区 。 

谈 到 这 次 的 整合 , Ex Libris 负责 发 现 和 交付 解决 方案 的 副 总 裁 Shlomi Kringel 认为 :“ 通 过 增加 学 术 内 容 的 曝光 率 和 提高 
搜索 结果 的 价值 来 改进 用 户 的 研究 体验 , 对 我 们 所 有 的 服务 来 说 都 是 一 个 重要 的 目标 。 将 Altmetric 徽章 加 入 Summon 发 现 
服务 , 使 得 我 们 的 用 户 能 够 更 容易 判断 一 项 研究 成 果 在 学 术 界 和 读者 中 的 影响 力 ， 以 及 产生 这 一 影响 力 背 后 的 原因 。” 

Altmetric 公司 创始 人 Euan Adie 补充 道 : “我们 很 高 兴 看 到 ProQuest 将 Altmetric 集成 到 了 Summon 发 现 服务 之 中 。 我 们 
和 希望, 在 与 研究 成 果 相 关 的 在 线 活动 被 更 多 用 户 看 到 的 同时 ， 用户 也 能 更 积极 地 参与 到 各 自 领 域 正在 进行 的 有 关 学 术 成 果 的 
讨论 之 中 。” 

无 需 订 阅 Altmetric.com， 图 书馆 就 可 以 激活 Altmetric 徽章 ， 这样, Altmetric 徽章 将 显示 在 所 有 通过 ProQuest 平 台 , 如 360 
Links 、Ex Libris Primo 以 及 Summon 发 现 服务 等 提供 的 搜索 结果 中 。 


(编译 自 : http://www.proquest.com/about/news/2016/Altmetric-data-now-available-in-the-Summon-Discovery-Service.html) 


(本 刊 讯 ) 
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